Ataques backdoor generalizables en RLHF con triggers emocionales
Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA.
Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA.